在游戲界面中點擊按鈕開始錄音,內置的語音識別系統(tǒng)幾乎瞬間就能將語音轉換為文字,再點擊“發(fā)送”,一條應用人工智能技術、由機器參與完成的文字消息就出現(xiàn)在了游戲屏幕上。整個過程可以像語音一樣實時與其他玩家交流,一點也不耽誤游戲操作和對局節(jié)奏。在網(wǎng)易旗下的多款游戲中,玩家們早就習慣了這項語音轉文字的功能。
它所依托的AI語音識別技術,是由杭州網(wǎng)易數(shù)帆科技有限公司(簡稱“網(wǎng)易數(shù)帆”)自研開發(fā)的。
這一技術還應用于網(wǎng)易旗下多個產品中。在網(wǎng)易云音樂中,基于語音識別技術獲取歌詞的時間軸信息可用于制作實時歌詞,以及在音視頻直播中對主播語音進行識別,輔助進行審核與分析;在網(wǎng)易新聞中,對用戶上傳的短視頻進行語音識別,用于內容審核;在有道詞典的語音翻譯功能中,對用戶的語音信息識別為文字信息再進行翻譯……
20余年積淀,揚起一艘數(shù)字光帆
2020年7月16日,在杭州網(wǎng)易數(shù)字+大會上,網(wǎng)易集團旗下云計算和大數(shù)據(jù)品牌網(wǎng)易云宣布正式升級更名為“網(wǎng)易數(shù)帆”,將持續(xù)深化場景化服務,并針對企業(yè)數(shù)字化需求,優(yōu)化和升級業(yè)務與戰(zhàn)略,聚焦基礎軟件領域業(yè)務,以更主動、更激進的姿態(tài)打入企業(yè)數(shù)字化轉型服務這條To?B賽道。
幾個月后,在11月舉行的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上,網(wǎng)易數(shù)帆首次亮相“互聯(lián)網(wǎng)之光”博覽會,展示了全鏈路數(shù)據(jù)生產力平臺、一站式軟件生產力平臺等云原生、大數(shù)據(jù)、人工智能領域的最新技術。目前,網(wǎng)易數(shù)帆已發(fā)展出四大業(yè)務線:云原生軟件生產力平臺網(wǎng)易輕舟,全鏈路數(shù)據(jù)生產力平臺網(wǎng)易易數(shù),多媒體智能開放平臺網(wǎng)易易智和全維度質量效能平臺網(wǎng)易易測。其中,四大業(yè)務線中的網(wǎng)易易智主要以人工智能技術提升企業(yè)智能化水平。
作為網(wǎng)易技術的孵化器、人才的培養(yǎng)基地和市場的發(fā)動機,網(wǎng)易內部設有杭州研究院,主要用于創(chuàng)新業(yè)務孵化、基礎技術平臺研發(fā)和前沿技術研究。網(wǎng)易數(shù)帆也是從這里孵化的,因此,盡管它是一個僅4歲的年輕品牌,背后卻有著網(wǎng)易集團二十余年的互聯(lián)網(wǎng)技術積累。
據(jù)網(wǎng)易易智總經(jīng)理胡光龍介紹,網(wǎng)易是國內最早一批研究并應用AI技術的互聯(lián)網(wǎng)公司。2011年,網(wǎng)易郵箱推出了一項郵箱賬號安全功能——人臉識別,可通過攝像頭識別人臉信息,對用戶身份進行認證,防止郵箱賬號被盜,加強郵箱安全保障?!斑@其實就是比較早期的AI技術應用案例,人臉識別功能的基礎是AI技術中涉及視覺方面的圖像識別。”胡光龍回憶說,“不過在當時,這一技術并沒有大規(guī)模地進入移動互聯(lián)網(wǎng)行業(yè),更沒有互聯(lián)網(wǎng)企業(yè)在用戶安全方面運用人臉識別系統(tǒng)的先例,用人臉識別輔助產品安全是我們基于網(wǎng)易本身的產品線而做的嘗試。”
以數(shù)據(jù)為支撐,在場景內打磨技術
胡光龍認為,無論在什么時代,數(shù)據(jù)始終是人工智能領域中非常寶貴的資產。
海量的自有數(shù)據(jù)是網(wǎng)易數(shù)帆發(fā)展AI技術得天獨厚的優(yōu)勢。區(qū)別于很多企業(yè),網(wǎng)易的技術研發(fā)邏輯有著鮮明的特征——從業(yè)務需求、產品應用出發(fā)。
比如研發(fā)語音識別系統(tǒng),最終還是為了解決網(wǎng)易內部各項業(yè)務遇到的實際問題。從2013年開始,網(wǎng)易數(shù)帆(彼時還是網(wǎng)易杭州研究院)研發(fā)的語音識別系統(tǒng),經(jīng)歷了從最初原型系統(tǒng)到后期逐步完善優(yōu)化直至大規(guī)模應用三個階段。
在早期,其語音識別系統(tǒng)在識別精度和識別效率上都不甚理想,隨著深度學習技術在人工智能領域的發(fā)展,網(wǎng)易多款產品內的實際場景數(shù)據(jù)發(fā)揮了巨大作用,網(wǎng)易數(shù)帆在過去的基礎上開發(fā)了一套端到端的語音識別系統(tǒng)。
對于這套系統(tǒng)的評價,胡光龍用了兩個關鍵詞——“漂亮的框架”和“質的飛躍”。系統(tǒng)的好處不言而喻,能夠滿足網(wǎng)易業(yè)務發(fā)展尤其是國際化的需求。例如,一些全球同服的游戲,用戶語音轉換文字時,會同時有中英日韓多種語言需要支持;語音翻譯應用,目前需要先選擇語種再說話,實際應用中容易選錯導致無法識別……這些實際的業(yè)務場景需求,都驅動著AI技術不斷演進升級,朝著更成熟的方向發(fā)展。
自上線以來,網(wǎng)易語音識別系統(tǒng)已為游戲、教育、音樂、傳媒、企業(yè)服務領域的多個產品提供持續(xù)穩(wěn)定的服務支持。在電商智能客服等領域,經(jīng)過針對性的定制優(yōu)化,識別性能達到行業(yè)領先水平。
以開放的姿態(tài),推動全行業(yè)智能化
網(wǎng)易一直擅長的,就是在大市場的細分領域站住腳跟。網(wǎng)易數(shù)帆在更名之后進一步明確了自己的定位,在一個開放兼容的生態(tài)環(huán)境中,創(chuàng)造獨特的價值并與之兼容,沿著設定的核心業(yè)務線發(fā)展和深化。
在疫情催化之下,智能化技術飛速發(fā)展,企業(yè)數(shù)字化轉型需求也日益旺盛,為各行各業(yè)帶來新的發(fā)展痛點和全新的業(yè)務場景。企業(yè)如何降低技術門檻、轉型風險和成本?內部系統(tǒng)多,數(shù)據(jù)孤島嚴重,數(shù)據(jù)如何支持決策?線上教育如何最大化利用師資力量,又能滿足學生高效復習和答疑的需求?這些問題,是金融、教育、物流等行業(yè)企業(yè)2020年在面臨數(shù)字化時遇到的“靈魂叩問”。網(wǎng)易數(shù)帆在幫助企業(yè)數(shù)字化轉型時,會用AI技術或者基于這一技術的思路嘗試解決其他行業(yè)內部的問題。
“人工智能領域的很多技術都可以在各行各業(yè)找到‘用武之地’。”胡光龍說。比如在火熱的直播行業(yè),基于自學習語音識別技術、視頻分析及自然語言理解等技術,可以對文本、圖像、視頻進行分析和理解,用于視頻直播字幕、質檢審核、內容分發(fā)等業(yè)務場景,還能將文字信息轉化為聲音信息,用于虛擬主播、直播變聲場景等。
“直播行業(yè)還算是帶著互聯(lián)網(wǎng)基因,能與新技術快速融合,但同樣,傳統(tǒng)行業(yè)也需要AI技術賦能自己的業(yè)務?!焙恺埮e了一個簡單的例子,在絕大部分企業(yè)的報銷現(xiàn)狀中,普通員工報銷流程復雜繁瑣,財務人員日常工作單據(jù)處理量大、對賬繁瑣等,但用上OCR(光學字符識別)和NLP(自然語言處理)這些AI技術可以大幅度簡化流程?!爱斎?,我們也仍然在探索,從小處著手,一步一步推進各個行業(yè)的智能化。”
2020年7月以來,網(wǎng)易數(shù)帆已先后與浙商銀行、深圳證券交易所、好未來教育集團、濟民可信集團、國家超級計算中心濟南中心等多領域大型企業(yè)和機構簽約,提供數(shù)字化轉型服務。
來源:每日商報